@莫凯洁等:《古汉语典故资源库的构建及应用研究》
总结😁
主要学习资源类论文的写法。除了建立资源库的过程外,还有进一步的测试任务设计和应用到模型评测中去,以及应用到释义、识典、文本润色中。
细节:单盲标注和双盲标注的设计
复习:二分类和多分类任务模型的评价指标
摘要
-
研究背景
- 典故具有高度凝练的文化内涵
- 存在表达歧义性、多样性、共现性特征
- 自动分析面临语义消歧、典源追溯等挑战
-
研究成果
- 构建包含23,000个典故形式的知识库:
- 涵盖典源、语义、用例
- 创建含30,000+标注实例的语料库:
- 包含用典位置、句子来源等信息
- 构建包含23,000个典故形式的知识库:
-
技术贡献
- 提出用典判断与典故识别双任务框架
- 建立机器学习(SVM/RR/LR/KNN)、神经网络(BERT)和大语言模型(GPT系列)基线
资源库构建方法
1. 知识库构建
- 数据来源: 《中国典故大辞典》核心数据
- 核心典故选择标准:
- 典形分化≥8个
- 或被≥2部外部工具书收录(在《常用典故分类词典》《全元曲典故辞典》《全宋词典故辞典》《全唐诗典故辞典》《古代诗词典故辞典》《中华典故》之中)
- 数据结构:
2. 标注语料库
- 语料来源:
- 殆知阁 2.0
- 语料库在线(国家语委)
- 《汉语大词典》
- 匹配方法:
- 精确匹配(相似度=1)与模糊匹配(相似度≥0.8,采用difflib中的SequenceMatcher)
- 筛选句子长度 8-200 字
- 标注过程
- 试标注:抽取100条数据,让八名标注员进行标注,熟悉标注流程及规范。
- 双盲阶段:为了让标注员更熟悉单个典故中用典和未用典的区别,每个典故随机抽取30条匹配句(精确匹配和模糊匹配为1∶1),双盲中若标注有分歧,则引入第三人投票,最后将2票以上的数据纳入数据库。
- 双盲阶段采用Cohen’sKappa衡量一致性,在标注一致性达0.75(该值大于0.6时则认为一致性可接受)后转为单盲标注。单盲标注时,每个典故的例句转为20条,精确匹配和模糊匹配比例保持不变。
标注类型 | 标注流程 | 质量控制 | 应用阶段 |
---|---|---|---|
双盲标注 | 1. 两名标注员独立标注相同数据 2. 分歧时引入第三人投票 3. 仅保留≥2票一致的标注结果 |
1. 通过多人交叉验证降低主观偏差 2. 计算Cohen's Kappa系数(需≥0.6) 3. 确保标注规范统一 |
初期阶段(标注流程标准化) |
单盲标注 | 1. 单个标注员独立完成标注 2. 无需交叉验证 |
1. 依赖前期建立的标注规范 2. 标注效率提升,成本降低 |
后期阶段(规模化标注) |
典故自动识别任务及评测
1. 任务定义
任务类型 | 输入示例 | 输出要求 | 评估指标 |
---|---|---|---|
用典判断 | "愿天下人少察狂警之言..." | 二分类 (0/1) | 精确率、召回率、F1值、准确率 |
典故识别 | 同上 | 极端多标签分类 | 微平均精确率、召回率、F1值 |
2. 数据集构建
任务 | 训练集 | 测试集 |
---|---|---|
用典判断 | 35,439 正例+16,964 负例(其他剩余) | 2,562 条 (1:1)(试标、双盲标注) |
典故识别 | 35,739 条 (1,841 标签)(抽取 300 条未用典语料加入训练集) | 1,310 条 (825 标签)(随机抽取 31 条未用典语料加入测试集) |
3. 模型配置
- 机器学习模型:
- 支持向量机(SVM)、岭回归(RR)、逻辑回归(LR)和K最近邻(KNN)
- 在训练、测试的过程中,使用古汉语BERT预训练语言模型为每个句子生成句向量作为特征表示。
- 神经网络模型
- BERT+FCL和fastText
- 大语言模型:
- GPT-3.5/4
- 微调 GPT-3.5
- 引入 RAG
实验结果
用典判断任务
典故识别任务
大模型表现的三个重要影响因素:RAG 的准确率、使用专业领域知识微调、基座模型的理解能力。
应用场景
1. 文献释读
Prompt | 模型输出 |
输入句子:兰风香楚佩,竹泪冷 湘斑。 请帮我将输入句子翻译成现代 汉语 | 令蓝色的花香气飘逸如 楚地的佩饰,竹子的泪 滴因寒冷而在湘江边 凝成斑点 |
输入句子:兰风香楚佩,竹泪冷 湘斑。 这句话使用了典故:1、纫兰结佩, 谓采秋兰捻成索状佩戴在身上。 后因以纫兰结佩为表示人志行高 洁的典故。2、湘妃竹,后以湘妃竹 指斑竹,或写忧伤相思之情。请帮 我将输入句子翻译成现代汉语 | 兰草的芳香似乎附着 在楚地人的佩饰上,竹 子上的泪珠似乎是因 为湘江边的悲伤而变 得冰冷斑驳 |
2. 据意查典
查询语句 | 输出结果 |
我需要形容 君子之风的 典故 | 令君香:喻指大臣的高雅风采。 美玉经三火:后用为赞美君子美好坚贞品 质的典故。 箕山之风:指隐士的风范。 孟嘉帽:称美文士儒雅潇洒的风度,用写重阳宴集的雅兴。…… |
3. 文本润色
待润色 文本 | Prompt | GPT-4输出 |
坚强是 一种宝 贵的品 | 请使用优美的语言 为以下文本润色: (待润色文本) | 坚强,这一宝贵的品质,如同 璀璨的珍珠,在人生的海洋 中熠熠生辉 |
坚强是 一种宝 贵的品 质 | 请参考典故,使用优 美的语言为以下文 本润色: (待润色文本) 典故:美玉经三火 后用为赞美君子美 好坚贞品质的典故 力量 | 坚强,乃人格之美玉,需历经 磨难方显其真。正如古人 云:“美玉经三火”。君子之 坚贞不渝,犹如经火试炼后 更显光华的美玉,其坚强不 仅是抵御风霜的盾,更是照 亮前行道路的灯。因此,坚 强不仅是一种宝贵的品质, 更是人生旅途中不可或缺的力量 |